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摘 E: 卷 积 神经 网 络 的 高 计算 复杂 性 阻碍 其 广泛 用 于 实时 和 低 功 耗 应 用 ， 现 有 软件 实现 方案 难以 满足 卷 积 神经 网 络 
运算 性 能 与 功 耗 的 要 求 ,传统 面向 FPGA 的 卷 积 神经 网 络 构造 方式 具有 流程 复杂 、 周 期 较 长 和 优化 空间 较 小 等 问题 。 
针对 该 问题 ， 根 据 卷 积 神经 网 络 计算 模式 的 特点 ， 提 出 一 种 面向 云端 FPGA 的 卷 积 神经 网 络 加 速 器 的 设计 及 其 调度 机 
制 。 通 过 借鉴 基于 HLS 技术 、 引 入 循环 切割 参数 和 对 卷 积 层 循 环 重 排 的 设计 ， 采 用 模块 化 方式 构造 网 络 ， 并 进行 参数 
拓展 以 进一步 优化 加 速 器 处 理 过 程 ; 通过 分 析 系 统 任 务 和 资源 的 特性 总 结 调度 方案 ， 且 从 控制 流 和 数据 流 两 方面 对 其 
进行 优化 设计 。 与 其 他 已 有 工作 相 比 ， 所 提出 的 设计 提供 了 一 种 同时 具有 灵活 性 ， 低 能 耗 、 高 能 效 和 高 性 能 的 解决 方 
案 ， 并 且 探 讨 了 加 速 器 的 高 效 通用 调度 方案 。 实 验 结 果 表 明 ， 与 CPU 实现 相 比 ， 该 设计 实现 AlexNet 达到 8.48 倍 的 加 
速 ， 而 实现 Cifar 的 功 耗 仅 为 其 24.96%; 相 较 于 CPU+GPU 实现 对 Cifar6.90 倍 的 加 速 比 ， 虽 然 实 现 较 大 规模 网 络 的 性 
能 不 及 GPU， 但 功 耗 最 小 仅 为 其 14.98%; 与 已 有 研究 成 果 相 比 ， 最 大 达到 6.29 倍 的 加 速 比 。 其 中 与 大 平台 生成 的 加 
速 器 相 比 ， 即 使 仅 达 到 相当 的 性 能 ， 但 具有 更 低 的 时 钟 频率 。 
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Abstract: Convolutional neural network's high computational complexity often obstructs its widespread adhibition in real-time 
and low-power applications. The existing software implementation solution cannot meet the demands of the convolutional neural 
network for computing performance and power consumption. The traditional FPGA-oriented convolutional neural network 
construction method has problems such as complicated process, long cycle and small optimization space. For these problems, 
according to the characteristics of convolutional neural network calculation pattern, this paper proposed a design and scheduling 
mechanism of convolutional neural network accelerator for cloud FPGAs. By using for reference the design which based HLS 
technology, imported the cyclic cutting parameters and rearranged the convolution layer circularly. Then constructed the network 
in a modular way, and extended parameters to further optimize the accelerator processing process. Summarized the scheduling 
scheme by analyzing the characteristics of system tasks and resources, and optimized its design from two aspects of control and 
data flow. In comparison with other existing work, the proposed design provided a solution with flexibility, low energy 
consumption, high energy efficiency and performance. The design also discussed the efficient universal scheduling scheme of 
the accelerator. Experimental results show that compared with the CPU implementation, this design achieves 8.84 times speedup 
of AlexNet, while the power consumption of Cifar implementation is only 24.96% of it. Compared with the CPU+GPU to 
achieve 6.90 times speedup of Cifar, although the performance of large-scale network is inferior to the GPU, but the minimum 
power consumption is only 14.98%. This design achieves the maximum acceleration of 6.29 times in comparison with the 
existing research results. Compared to the accelerators generated for large platforms, even if it only has comparable performance 
but with a lower clock frequency. 
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network, CNN) 为 代表 的 方法 在 图 像 处 理 领 域 占据 统治 地 位 全 
?1, CNN 广泛 应 用 于 计算 机 视觉 (computer vision) 6 中 ， 已 经 

近年 来 ， 深 度 学 习 〈deep learning) 的 发 展 令 人 瞩目 ， 引 起 成 为 图 像 识 别 和 分 类 任务 中 最 有 效 的 方法 。 有 研究 表明 ，CNN 
了 各 个 领域 的 巨大 变革 。 以 卷 积 神经 网 络 (convolutional neural 正在 取代 许多 传统 用 于 视觉 任务 的 组 合算 法 四。 相关 的 应 用 包 
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其 固有 的 并 行 性 使 其 实现 方式 与 并 行 计算 紧密 相关 。 神 经 网 络 
应 用 对 于 性 能 和 功 耗 的 需求 ， 使 CNN 如 何在 低 功 耗 条 件 下 发 


挥 高 能 效 的 问题 得 到 学 者 广泛 关注 和 深入 研究 。 GPU 已 经 被 证 
实 可 以 达到 足够 的 性 能 水 平 忆 9 然而 其 高 功 耗 和 低能 效 使 之 
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] 于 硬件 加 速 的 不 同类 型 的 


牛 中 ， 
文献 [13] 


CNN 加 速 器 。 
时 ， 不 能 充分 发 挥 


FPGA 成 为 硬件 加 速 的 理想 选择 。 
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使 用 Zynq SoC 实现 了 一 种 采用 8 路 并 行 引擎 的 
但 该 加 速 器 面向 卷 积 核 设计 ， 当 卷 积 核 尺 寸 变 化 
行 计算 性 能 ， 会 造成 大 量 的 资源 浪费 ; 


Antony 等 人 08 通 过 FPGA 实现 了 多 层 感知 器 网 络 , 并 详细 分 析 


经 提出 许多 加 速 器 ! 
可 以 为 深度 学 习 算法 提供 较 高 的 处 理性 能 ， 但 较 高 的 功 耗 导 致 


其 计算 效能 
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能 源 效率 高 、 开 发 周 
对 CNN 运算 的 要 求 ， 可 以 充分 发 挥 
BIATE T. SEE) CNN 


在 基于 ASIC, GPU 和 FPGA 的 文献 中 已 
相 比 于 传统 的 CPU 平台 ，GPU 虽然 
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对 硬件 实现 的 凶 


RF; ASIC 解决 方案 虽然 可 达到 性 能 和 功 耗 之 间 
的 最 佳 平衡 ， 但 其 高 设计 和 制造 成 本 使 
场 可 编程 逻辑 门 阵 列 (field program 


不 具有 优势 ， 而 现 
mable gate array, FPGA) 计 


经 网 络 的 性 能 的 影响 。 然 而 ， 该 实现 
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具体 完整 的 CNN 的 FPGA 设计 方案 。 
通过 使 用 循环 优 
以 表现 出 确定 性 
减少 片 外 数据 传输 。 在 [12] 的 工作 中 , Zhang 等 人 使 用 多 面体 方 


比 技术 HI 和 良好 的 缓存 设计 中 ，CNN 可 
的 数据 访问 模式 ， 因 此 可 以 最 大 化 数据 重用 


的 运算 加 速 ， 达 到 性 


功 耗 之 间 的 适当 平衡 09。 
与 嵌入 式 平台 相 比 ， 云 端 FPGA 上 则 在 提供 大 量 的 逻辑 和 内 


提供 PCIe、 


DDR 控制 、 时 钟 控制 等 通用 服务 逻辑 。 
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云 环境 中 使 
对 于 大 型 力 
器 和 人 逻辑 资源 DSP 除外 ) 通常 是 足够 的 。 然 而 ， 
法 涉及 大 量 的 权重 数据 ， 从 而 与 输入 数据 计算 产生 大 量 
FPGA 平台 的 片上 RAM 资源 通常 不 足以 缓冲 
系统 需要 大 量 的 片 儿 
A 设计 存在 较 大 挑战 : H 
期 长 。FPGA 的 容量 飞速 增长 ， 使 采用 传统 设计 
比率 增长 ， 所 以 越 高 的 工 
51 Chigh- 
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工具 的 开发 效率 没有 以 与 之 相对 应 的 
程 应 用 复杂 性 意味 着 越 长 的 开发 周期 。 


i FPGA 可 实现 既 快 速 又 高 效 


能 的 CNN 推理 。 
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的 中 间 


当前 CNN 
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level synthesis, HLS) 是 提高 FPGA 开发 效率 的 一 种 有 效 技 术 


采用 高 级 编程 语言 (例如 ANSI C/C++ 或 者 LabVIEW) XÉ 


动 生成 优化 后 的 算法 执行 代码 对 FPGA 进行 编程 成 为 可 能 。 


及 其 调度 方案 。 
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本 文 将 介绍 针对 云端 FPGA 的 卷 积 家 


RAF 
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的 重 排 , 使 得 其 可 以 借助 HLS 工具 所 提供 的 循环 
优化 ， 进 行 硬件 生成 优化 。 最 后 采用 缓存 优化 指令 ， 
计算 单元 的 执行 与 缓存 单元 获取 数据 并 行 执 行 ， 从 而 提高 加 速 
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设计 ， 即 采取 分 块 实现 方式 ， 为 卷 积 层 加 速 器 引入 循环 切割 参 
， 分 别 对 输入 输出 维度 的 循环 进行 切割 ， 


通过 对 卷 积 层 循环 


展开 及 流水 线 


使 得 卷 积 


器 内 部 的 并 行 度 。 在 此 基础 上 ， 在 卷 积 层 加 速 器 进行 高 层次 综 
合 前 ， 将 其 数值 确定 为 固化 的 加 速 器 参数 ， 
Ed FPGA 生成 的 加 速 器 硬件 地 址 映射 特点 设计 offset 参数 来 
表示 地 址 偏 移 量 。 使 用 地 址 偏 移 量 可 以 提高 FPGA 片上 资源 利 
效率 ， 增 加 数据 缓存 大 小 、 减 少数 据 缓 存 次 数 ， 从 而 加 快 卷 
积 计算 的 进程 。 优 化 后 的 卷 积 计算 过 程 如 图 2 


进行 参数 拓展 ， 


in buf [Tn][I BUF][I BUF]; 
w. buf [Tn]| Tm]| W. BUF][W. BUF]; 
out, buf [Tm][O. BUF][O. BUF]; 
load weight(); 
load bias(); 
load input(); 
for (i = 0; i < K; i++) { 
for (j = 0; j < K; j++) { 
for (tr = 0; tr < Tr; tr++) { 
for (tc 2 0; te < Tc; tc++) { 
#pragma HLS PIPELINE 
for (tm = 0; tm < Tm; tm++) { 
#pragma HLS UNROLL 
for (tn = 0; tn < Tn; tn++) { 
#pragma HLS UNROLL 
out_buf[tm][tr + r_offset_o][te c offset o] = 
w_buf[tn][tm][i + w_r_offset][j + w_c_offset] * 


in buf[tn][S * tr +i + r offset i][S * te  j + c. offset. i]; 


11111] 


42. ”优化 后 的 卷 积 计算 


Fig.2 Optimized convolution calculation 


及 计算 过 程 具有 相似 | 


于 卷 积 计 算 与 池 化 计算 均 需 大 量 的 循环 ， 且 其 数据 获取 


性 ， 以 上 卷 积 加 速 器 的 优化 方式 同样 适用 


于 池 化 层 加 速 器 ， 但 由 于 池 化 不 改变 输入 特征 


射 的 尺寸 以 节省 


大 量 的 内 存 来 存储 中 间 结 果 ; 且 其 像素 选择 可 
确保 将 最 相关 的 特有 


E 


层 加 速 器 共用 输入 输出 特征 维度 。 
3.2 ”模板 化 构造 网 络 层 功能 


E 度 ， 所 以 池 化 


于 CNN 前 向 传播 过 程 中 ， 层 


全 连接 层 也 称 为 线性 层 


BU DP d 。 全 连接 类 型 的 层 运 


Z, 
民 中 区 


z| 


整合 卷 积 层 或 池 化 


行 线性 空间 转换 ， 从 而 


[得 到 


层 的 输出 特征 图 


激活 层 中 激活 函数 的 应 ) 


避免 因 卷 积 层 中 的 乘法 累加 操作 而 导致 值 无 限 增加 。 且 该 函数 
通过 添加 非 线性 ， 将 分 类 边界 平滑 化 。 常 用 的 激活 函数 包括 六 
E〈ReLU)、 三 角 函 数 (Tanh) 等 。 卷 
职 层 经 过 激活 函数 的 非 线性 变换 可 表示 为 式 (2),/ 为 激活 函数 。 


击 响应 CSigmoid). JEH 


数 等 于 要 识别 的 类 别 数 。 


RIDE Nd 过 对 输入 进 
向 量 形式 输出 ， 网 络 最 后 一 个 线性 


M 


j 将 像素 值 压 缩 至 特定 函数 范围 


m 


1. r J= / 
X= NEiEN X; *W +B) 


J l, d 


3 ”基于 HLS 的 模板 函数 库 设计 


on CNN 网 络 模 型 , 对 文献 [12] 中 的 设计 方法 进 
过 模块 化 方式 构造 网 络 ， 提 高 计算 的 
曾 强加 速 器 模板 的 通用 性 。 


一 步 性 能 优化 ， 通 


CC 


和 资源 利用 效率 ， 


3.1 性 能 优化 


型 的 卷 积 


6 级 for-loops HHA, Z& cf 28 [12] 


间 运 算 具 有 独立 性 且 相 


运算 模式 相同 ， 因 此 可 通过 设计 针对 不 同类 型 
的 模板 函数 来 实现 CNN 前 向 计算 。 而 CNN 前 向 
络 结构 逐 层 顺序 进行 ， 即 网 络 相 邻 层 之 间 有 数 # 
行 处 理 。 据 此 ， 基 于 上 文 的 性 能 优化 设计 
的 网 络 层 模板 ， 可 以 复 用 单 层 运算 资源 来 节约 
加 速 器 以 更 高 的 计算 能 效 来 实现 完整 的 CNN 前 


传播 是 按照 
BANH ABE 
重 过 设计 足够 通 


同 
的 通 
g 


牛 资源 ， 让 


向 计算 。 


牛 运算 单元 进行 灵活 性 设计 ， 


为 了 让 不 同 规模 的 CNN 均 可 复 用 硬件 运算 单元 ， 需 对 硬 


将 配置 参数 化 ， 使 


并 行 度 


ARR 


法 和 累加 得 到 输出 ， 所 处 理 的 输入 输出 数据 均 为 3 维 数据 。 基 
职 层 的 计算 性 质 和 分 块 实现 方式 ， 设 计 参 数列 表 为 输 
偷 入 特征 数 ， 输 出 特征 大 小 ， 内 核 大 小 ， 输 入 、 输 出 特征 偏 移 
量 ， 步 长 大 小 ， 填 充 大 小 和 激活 类 型 。 根 据 FPGA 生成 的 加 速 


加速 器 模板 


依据 不 同 网 络 模型 进行 配置 重 构 的 能 力 。 其 中 ， 加 速 器 
用 数据 类 型 、 数 据 位 宽 、 加 速 器 缓存 大 小 、 
在 编程 实现 时 ， 均 为 加 速 器 模板 参数 ;同时 数据 获取 方 
式 、 数 据 处 理 模块 、 数 据 输 出 模块 等 也 进行 参数 化 ， 可 依据 应 
进行 调整 与 重 构 。 

a) 卷 积 层 。 卷 积 


数据 处 理 并 行 


! 层 经 过 输入 特征 图 和 卷 积 核 权 重 的 三 维 乘 


出 、 


E> 
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器 硬件 地 址 映射 特点 ， 设 计 offset 参数 来 表示 偏 移 量 。 卷 积 加 “及 相应 的 权重 和 偏 置 。 采 用 多 存储 接口 ， 设 计 输 入 、 输 出 存储 


速 器 模板 如 图 3 所 示 。 体 的 参数 列表 为 输入 、 输 出 缓冲 区 特征 数 ， 输 入 、 输 出 缓冲 区 
LU AE 大 小 ; 权重 存储 体 的 参数 列表 为 输入 、 输 出 缓冲 区 特征 数 ， 权 
重 缓冲 区 大 小 ， 其 结构 如 图 3 中 的 3 维 数据 存储 体 。 
ELLA a : TT 4 ”加速 器 的 调度 机 制 

ap | 本 章 主要 介绍 基于 前 文 加 速 器 模板 设计 的 CNN 加 速 器 系 
L_BUF 统 架 构 和 相应 通用 加 速 器 调度 机 制 ， 即 软 硬 件 划 分 、 系 统 构造 

me T DRE 

Tm > 点 积 O_BUF 44 系统 架构 


4.1.1 软 -硬件 划分 

本 文采 用 软 硬 件 协同 设计 。 结 合 HLS 技术 与 云端 FPGA F 
台所 实现 的 “处 理 器 + 加 速 器 ”架构 ,通过 对 任务 在 软 硬 件 上 的 
划分 与 协同 设计 , 完成 任务 模型 向 硬件 平台 的 映射 。 云端 Host- 
el CPU 上 的 软件 部 分 作为 整个 系统 的 控制 端 。CPU 运行 软件 代 


| 流程 、 任 务 -资源 调度 模型 和 相应 的 调度 优化 方案 。 


图 3 卷 积 加 速 器 模板 码 ， 并 为 硬件 分 配 加 速 器 任务 。 硬 件 端 可 根据 不 同 加 速 任务 ， 
Fig.3 Convolution accelerator template 启动 加 速 器 来 实现 对 计算 的 加 速 。CNN 应 用 的 执行 过 程 主要 分 
AB, Tn, Tm 为 输入 、 输 出 缓冲 区 特征 数 , LBUF、O_BUF 为 ” 为 三 个 阶段 ， 即 数据 预 处 理 、CNN 推理 、 分 类 结果 的 整理 和 输 
输入 、 输 出 缓冲 区 大 小 ，W_BUF 为 权重 缓冲 区 大 小 。 出 。 其 中 ，CNN 推理 中 卷 积 、 池 化 、 全 连接 和 激活 函数 等 操作 
b) 池 化 层 。 池 化 层 采 取 与 卷 积 层 类 似 的 滑动 窗口 处 理 输入 ”计算 需求 高 ， 且 数据 吞吐 率 相对 较 高 ， 将 其 划分 为 硬件 加 速 器 


数据 ， 并 对 每 个 滤波 器 的 输入 求 最 大 值 或 平均 值 等 。 考 虑 到 不 ”实现 ;而 另外 两 个 阶段 与 应 用 的 前 后 端 联系 更 为 紧密 ， 计 算 需 
同 网 络 中 卷 积 层 和 池 化 层 的 连接 关系 不 同 ， 将 池 化 层 以 与 卷 积 RR, 接口 要 求 高 , 将 其 划分 为 Host-CPU 执行 。 此 外 ,加速器 
加 速 器 相同 的 方式 实例 化 为 独立 加 速 器 ， 来 增强 加 速 器 对 不 同 ”状态 的 控制 、 数 据 的 转变 和 传输 、CNN 应 用 执行 时 间 的 测量 和 
模型 的 适用 性 与 可 重 构 性 。 采 取 与 卷 积 层 相同 的 加 速 器 设计 ， 系统 的 调试 也 由 Host-CPU 管理 。 目 标 系统 的 软 硬 件 划 分 如 图 


于 池 化 层 不 改变 输入 特征 维度 ,因此 只 有 一 个 特征 维度 参数 ， 5 所 示 。 
其 参数 定义 与 卷 积 加 速 器 相同 ， 如 图 4 所 示 。 
池 化 加 速 器 mcg o 
Ta Ta 
加 速 器 状态 控制 
d M) S 加 速 器 生成 
IF 数据 转变 任务 iid 
+ 偏 移 量 、 + 偏 移 量 池 化 
d. "" 数据 传输 任务 
全 连接 
| 时 间 测 量 
+ 偏 移 量 CO 二 
LBUF O_BUF 系统 调试 
图 4 池 化 加 速 器 模板 
Fig.4 Pooling accelerator template 图 5 系统 软 硬 件 划分 
c) 全 连接 层 。 通 过 分 析 CNN 的 特性 得 知 ， 全 连接 层 的 计 Fig.5 System hardware and software partition 
算 相 对 于 卷 积 层 , 区别 仅 在 于 减少 了 卷 积 核心 内 部 的 循环 操作 ， 4.1.2 系统 构造 流程 
可 将 全 连接 层 视 为 卷 积 层 的 一 种 特殊 形式 。 因 此 ， 采 用 卷 积 层 构建 CNN 应 用 首先 需要 掌握 网 络 模型 的 配置 和 权重 信息 ， 
加 速 器 进行 全 连接 层 的 计算 ， 可 通过 复 用 卷 积 加 速 器 来 节约 硬 通过 构造 CNN 模型 分 析 器 , 对 使 用 Caffe 深度 学 习 框架 多 9 训练 
件 资源 ， 提 高 加 速 器 的 计算 效能 ， 达 到 对 资源 的 高 效 利 用 。 所 得 网 络 模型 描述 文件 进行 分 析 ， 将 其 提取 为 网 络 配置 参数 和 
d) 数据 存储 体 。 为 上 述 加 速 器 分 配 相应 的 数据 存储 体 , 同 ”权重 数据 文件 。 其 中 ， 网 络 配置 参数 文件 包括 网 络 结构 ， 所 有 


样 将 其 参数 化 。 数 据 存储 体 用 于 存储 3 维 输入 和 输出 数据 ， 以 ” ” 层 类 型 和 输入 、 输 出 特征 尺寸 ， 卷 积 核 大 小 ， 步 长 大 小 ， 填 充 
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大 小 等 信息 


件 端的 映射 。 通 过 提取 网 络 模型 特征 , 结合 


。 然 后 根据 系统 软 硬 件 划分 ， 完 成 任务 模型 向 软 硬 
CNN 加 速 器 模板 ， 
实现 加 速 器 的 设计 与 生成 。 针 对 FPGA 片上 资源 结构 及 特征 ， 


实现 加 速 器 缓冲 区 的 构建 及 生成 。 最 后 , 完成 CPU 和 FPGA 之 
间 的 任务 分 派 及 其 任务 -资源 调度 。 系 统 构造 流程 如 图 6 所 示 。 
网 络 模型 描述 
Y 
模型 分 析 器 
Y 
网 络 参 数 权重 参数 
, l1 Y | 
| 主机 任务 Conv Pool FC | 

i? | 
编译 程序 加 速 器 生成 | 
pL | 
| Host-CPU FPGA | RAM | | 
| 
| 任务 -资源 调度 || 
| LL J | 
CPU 实 现 FPGA 实 现 | 
L 
图 6 系统 构造 流程 


Fig.6 System construction process 
4.2 任务 -资源 调度 模型 
4.2.1 任务 调度 


建 模 分 析 得 知 ， 在 FPGA 上 实现 CNN 各 层 的 处 理 过 
三 个 操作 阶段 ， 即 输入 、 计 算 和 输出 阶段 。 


基于 前 文 的 软 -硬件 协同 设计 和 CNN 数据 访问 模式 的 特性 


程 可 分 为 


a) 输入 阶段 。 将 计算 所 需 的 输入 数据 从 CPU 片 外 DRAM 


E FPGA 片上 BRAM. 网络 权 重 数据 已 在 预 处 理 阶 
成 ， 不 计 入 该 输入 阶段 。 通 过 将 输入 数据 的 一 部 分 突 
时 缓冲 移动 到 加 速 器 生成 的 输入 缓冲 区 中 。 


区 ， PA 


段 传输 完 
发 读 入 临 


b) 计 算 阶 段 ,运算 单元 在 启动 时 ,从 宿主 端 读 取 配 
根据 配置 信息 ， 调 | 
输入 阶 
素 乘法 和 累加 计算 ， 输 出 结果 存储 于 加 速 器 输出 缓冲 


信息 ， 


加 速 器 启动 命令 执行 计算 。 该 阶段 紧 接 于 
段 处 理 所 需 的 所 有 后 续 计算 。 在 输入 和 权重 之 间 执 行 元 


X. 


c) 输出 阶段 。 将 上 阶段 加 速 器 输出 缓冲 区 所 得 
CPU 片 外 存储 器 ， 并 将 其 作为 网 络 下 层 的 输入 数据 。 
FX) 
所 以 需 对 CNN 各 层 


zs RS n 


分 块 实现 方式 , 系统 的 逻辑 和 模块 控制 比较 复杂 ， 
的 任务 进行 调度 。 系统 中 的 Host-CPU 负责 


加 速 器 状态 与 运算 过 程 的 控制 以 及 数据 的 传输 ， 
码 完成 。 整 个 推理 过 程 被 封装 为 一 个 任务 单元 


Ed 
分 配 


机 控制 代 
给 网 络 加 


速 器 。 网 络 加 速 器 被 封装 为 PCIe 设备 ， 


] 集 不 需要 


TEE RD) 
展示 了 执行 卷 


NJ 


Z] 


TE EA pr. E 


知道 硬件 的 细节 。 
务 调 


- 


度 过 程 。 


积 层 的 任 
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Host-CPU FPGA 
load input wl 
计算 阶段 
convl 
输出 阶段 


transfer output 


4.2.2 资源 调度 


虽然 将 模型 参数 包 
但 PFGA 


输入 阶段 
load input w2 
计算 阶段 
conv2 
输出 阶段 
transfer output 
7 任务 调度 


Fig.7 Task scheduling; 


aT 


[中 间 结 果 存 储 在 片上 BRAM 中 可 以 显 
计算 资源 、 传 输 带宽 的 限制 ， 往 


著 提 高 性 能 ， 
往 无 法 满足 高 


存储 器 中 分 配 数据 缓冲 


行 性 所 需 的 资源 要 求 。 因 此 ， 必 须 在 片 外 动态 


资源 调 


-k FH 
结果 


度 的 整体 控 和 
度 的 输入 阶段 开始 执行 , 从 CPU 
传输 数据 至 加 速 器 输入 缓冲 区 , 然后 控制 
计算 完成 后 , 将 加 速 器 输出 缓冲 区 的 
器 。 对 应 于 任务 调 


度 三 阶段 中 的 输入 和 输出 阶段 ， 


区 来 存储 中 间 结 果 和 模型 参数 。 将 网 络 
整体 的 资源 划分 为 计算 资源 和 缓存 资源 。 加 速 器 分 配 的 
参数 、 权 重 、 输 入 和 输出 缓冲 区 属于 计算 资源 ， 绥 存 资源 则 用 
来 存储 模型 参数 和 中 间 结 果 。 
器 完成 ,， 当 任务 调 


zi 


im. 


通用 处 理 
片 外 存储 器 
启动 加 速 器 进行 计算 。 
传输 至 CPU 片 外 存储 
种 资源 2 


间 数 据 传输 的 方向 分 别 映射 为 缓存 资源 一 计算 资源 ， 计 算 资 源 
源 调 度 过 程 如 图 8 所 示 。 


一 缓存 资源 。 根 据 以 上 描述 ， 


© TH D 


总 结 资 


Host-CPU FPGA 
缓存 资源 计算 资源 
模型 参数 
加 速 器 参数 
计算 数据 
v 
输出 阶段 “| convi 
模型 参数 
加 速 器 参数 
计算 数据 
Y 
输出 阶段 cony2 


模型 参数 
中 间 结 果 


图 8 


Fig.8 Resource scheduling; 


资源 调度 


201811.00175v1 


chinaXiv 


录用 定稿 mde, F 
43 调度 优化 


4.3.1 数据 流 
在 卷 积 过 程 中 ， 输 入 特征 图 上 相同 滤波 器 中 不 同位 置 之 间 
的 部 分 像素 相互 重 钱 ， 使 得 有 必要 在 不 同 的 迭代 中 存储 一 些 输 
入 像素 。 由 此 考虑 在 硬件 资源 和 带宽 允许 的 情况 下 ， 在 每 个 卷 
积 层 的 输入 阶段 向 加 速 器 输入 缓冲 区 传输 部 分 数据 。 而 该 阶段 
传输 数据 消耗 的 时 间 计 入 网 络 处 理 时 间 ， 需 对 其 进行 优化 来 减 
小 网 络 处 理 的 延迟 。 通 过 每 次 仅 存储 计算 输出 特征 图 的 Tr 行 所 
需 的 一 部 分 输入 数据 可 以 最 小 化 输入 阶段 等 待 时 间 。 设 计 为 存 
储 输入 的 行 数 为 Tr * S， 并 且 列 的 数量 为 Tc * Tn， 其 中 Tr 和 
Te 是 加 速 器 设置 的 输出 特征 大 小 ，S 和 Tn 分 别 是 该 层 的 步 长 
大 小 和 输入 特征 缓冲 区 的 通道 数量 。 图 9 说 明了 优化 后 的 操作 
过 程 。 在 开始 时 ， 窗 口 的 第 一 个 Tr * S 行 被 填充 以 便 有 足够 的 
数据 来 开始 计算 。 当 卷 积 核 在 该 Tr *S 行 上 滑动 完毕 ， 新 的 
^ Tr * S 行 输 入 数据 被 加 载 到 窗口 中 进行 下 一 次 迭代 ， 并 以 相 
同方 式 继续 计算 ， 直 到 产生 所 有 输出 特征 映射 。 

片上 缓冲 区 的 设计 基于 Double Buffering 的 基本 思想 ， 来 
证 数据 并 行 读 取 计算 需求 。 其 中 双 组 冲 区 采用 ping-pong 操 
以 便 将 数据 传输 时 间 与 计算 重 钱 ， 从 而 提高 处 理 效 率 。 将 
片上 缓冲 区 分 为 两 组 ， 分 别 用 于 输入 特征 图 和 输出 特征 图 。 每 
个 缓冲 区 集 都 包含 多 个 独立 的 地 址 连续 的 缓冲 区 ， 每 个 输入 组 
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Fig.9 Scheduling optimization of convolution data stream scheduling 


optimization 

图 10 举例 显示 了 几 个 计算 和 数据 传输 阶段 的 时 序 。 对 于 
输入 特征 映射 ， 第 一 阶段 ， 计 算 引 擎 正在 处 理 input0， 同 时 将 
下 一 个 输入 阶段 所 需 的 数据 复制 到 inputl, 下 一 个 输入 阶段 将 执 
行 相反 的 操作 。 对 于 输出 特征 映射 , 当 计 算 和 数据 复制 的 [N/Tn] 
个 阶段 完成 后 ， 得 到 的 输出 特征 映射 存储 于 输出 缓冲 区 集中 。 
当 output0 的 空间 被 最 大 化 利用 后 ， 则 使 用 output1， 并 传输 
outputO 中 存储 的 输出 数据 , 下 一 个 输出 阶段 同样 执行 相反 的 操 


YT 


冲 区 集 和 输出 缓冲 区 集中 的 缓冲 区 组 数量 分 别 等 于 Tn 和 Tm. 作 。 
[N/Tnl 个 阶段 [N/Tnl 个 阶段 
用 于 计算 用 于 计算 用 于 计算 用 于 计算 用 于 计算 用 于 计算 用 于 计算 用 于 计算 
iputQ output0 inputl output0 input0 output0 inputl | output0 input0 output! inputl output! input0 | outputl inputl. output! 
load inputl load input0 load input1 load input0 load input load input0 load input. load input0 
ansfer outputl transfer outputQ 
图 10 ”基于 Double Buffering 的 数据 流 调度 优化 


Fig.10 Dataflow scheduling optimization based on Double Buffering 


4.3.2 控制 流 

在 云端 FPGA 平台 实现 CNN 推理 的 过 程 ， 包 含 软件 和 硬 
件 实现 两 部 分 任务 。 在 三 个 任务 阶段 中 ， 输 入 和 输出 阶段 由 软 
件 端 控制 实现 ， 计 算 阶 段 则 由 软件 端 调 用 加 速 器 启动 命令 来 执 
行 计算 ， 即 启动 后 的 计算 过 程 由 硬件 端 控制 实现 。 而 软件 和 硬 
件 执行 部 分 的 操作 和 资源 都 互相 独立 ， 且 本 文采 用 Double 
Buffering 设计 ， 这 使 得 当前 计算 阶段 与 下 个 输入 阶段 及 与 上 个 
输出 阶段 均 可 达到 一 定 程 度 的 并 行 化 ,从 而 减 小 整体 网 络 延 迟 。 
对 应 于 数据 流 优化 ， 相 应 的 控制 流 进 行 调度 优化 后 的 任务 调度 


流程 如 图 11 所 示 。 
5 “评估 
5.1 实验 设置 
5.1.1 软 硬 件 环境 
本 文 实 验 采 用 配备 一 个 Xilinx VU9P FPGA 板 卡 的 AWS F1 


EC2 实例 作为 基于 云 的 实验 平台 。 该 FPGA 包含 2585K 逻辑 单 


元 和 6800 个 DSP。 此 外 , 它 拥 有 75.9Mb 的 BlockRAM 和 270 


ind 


Mb UltraRAM 。 网 络 模型 的 软件 实现 运行 在 8 核 英 特 尔 17-Xeon 
CPU E5-2430 Cf 15MB 缓存 ) 和 NVIDIA GPU Tesla K80 E. 
5.1.2 网 络 模型 与 测试 数据 集 

选取 Cifar、AlexNet、VGG-16 等 CNN 模型 及 其 量化 版 本 
作为 实验 对 象 , 量化 方法 基于 文献 [26], 在 本 文 的 评估 中 , 量化 
版 本 的 输入 数据 和 权重 都 被 量化 为 16 bit。 将 CiFar-10 数据 集 
和 2012 年 ImageNet 大 规模 视觉 识别 挑战 赛 (ImageNet Large 
Scale Visual Recognition Challenge，ILSVRC) 的 验证 集 作 为 实 
仿 的 测试 数据 集 。 
5.2 性 能 评估 

实验 中 对 以 下 几 方面 进行 评估 。 

a) 评估 属性 。 对 设计 生成 的 加 速 器 进行 评估 ， 分 析 几 种 网 
络 的 处 理性 能 、 能 耗 和 能 效 等 。 

b) 评估 对 象 。 展 示 生 成 的 系统 性 能 ， 并 将 其 分 别 与 软件 实 
现 和 其 他 已 有 设计 的 各 项 性 能 进行 比较 分 析 。 
5.8 结果 与 分 析 

a) 首先 评估 针对 这 几 个 网 络 模型 设计 生成 的 加 速 器 性 能 。 


CC 
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通过 测量 在 云端 FPGA 平台 实现 中 运行 网 络 推理 的 处 理 时 间 来 表 1 各 网 络 模型 的 加 速 器 配置 和 性 能 
衡量 整体 性 能 。 通 过 分 析 网 络 参数 ， 表 1 中 测量 并 报告 了 各 网 Table 1 Accelerator configuration and performance of network models 
络 模型 的 加 速 器 参数 设置 和 性 能 。 加 速 器 配置 
网 络 模型 数据 类 型 时 间 (ms/image) 
CTm, Tn, Tr, Tc, I BUF) 
Host-CPU FPGA 
MON T Cifar float 32,32,4,4,5 0.42 
load inputü AlexNet float 133,10,4,4,19 28.6 
输入 阶段 ll 计算 阶段 < ! VGG-16 float 64,19,4,4,32 224.85 
| : b) 将 本 文 实现 的 网 络 模型 的 性 能 与 其 纯 软 件 版 本 进行 比较 。 
NAmal 个 阶段 结果 如 表 2 所 示 。 所 有 网 络 模型 的 加 速 都 将 CPU 实现 测 得 的 
EZ Cum i 延迟 数据 作为 GPU 和 FPGA 系统 的 基线 来 展示 加 速 比 。GPU 
load input convi | AYI opaan 和 FPGA 的 能 耗 和 能 效 也 与 CPU 进行 比较 。 
输出 阶段 | 输入 阶段 rm 计算 阶段 3 i 由 表 2 可 见 ， 对 于 小 型 网 络 ，CPU 可 以 实现 与 GPU 相当 
> = 的 性 能 。 但 是 ， 利 用 架构 的 灵活 性 ，FPGA 可 以 优 于 CPU 和 
E OU wn GPU. j CPU 实现 相 比 ， 该 设计 实现 AlexNet 达到 8.48 倍 的 
te : 加 速 ， 而 实现 Cifar 的 功 耗 仅 为 其 24.96%; 相 较 于 CPU-GPU 
DR 实现 对 Cifar 6.90 倍 的 加 速 ， 虽 然 实现 较 大 规模 网 络 的 性 能 不 
HERR | uec 及 GPU， 但 功 耗 最 小 仅 为 其 14.98%。 据 此 分 析 得 知 ， 相 比 于 
CPU 实现 ， 得 益 于 FPGA 较 高 的 并 行 执行 能 力 ， 生 成 的 系统 在 
| a | 性 能 和 能 效 方面 总 是 更 佳 ; 与 GPU 实现 相 比 , 即使 本 文 设计 生 
成 的 加 速 器 系统 性 能 达 不 到 GPU 的 性 能 峰值 ， 也 仍然 能 利用 
FPGA 的 高 计算 密度 优势 提高 能 效 ， 表 现 出 较 高 的 能 耗 优 势 。 
图 11 控制 流 调度 优化 c) 将 本 文 实现 的 网 络 模型 的 性 能 与 已 发 表 的 研究 成 果 进 行 
Fig.11 Scheduling optimization of Control flow 比较 。 结 果 展 示 在 表 3 n. 
表 2 与 其 纯 软 件 版 本 比较 结果 
Table 2 Compare results with its software version 
平台 CPU CPU+GPU 本 文 (CPU+FPGA) 
设备 E5-2430 E5-2609 + K80 AWS FI 
网 络 模型 Cifar AlexNet VGG-16 Cifar AlexNet VGG-16 Cifar AlexNet VGG-16 
数据 类 型 float float16 float 
时 钟 (MHz) 1.9GHz 1GHz 125MHz 
(Watt) 150 250 37.447 42.41 40.432 
延迟 /图 (ms) 2.4065 242.562 794238 2.8079 . 5.0486 — 25.7583 0.42 28.6 224.85 
加 速 比 〈x) 1 1 1 0.83 48.05 30.83 5.73 8.48 3.61 
能 效 1 1 1 0.4034 28.203 16.95 17.292 28.6 12.11 
R3 ”与 已 有 工作 比较 结果 
Table3 Compare results with the existed methods 
设计 来 源 文献 [27] 文献 [28] 文献 [28] 文献 [29] 本 文 
平台 VX690T Arria 10 Stratix V Stratix V VU118 
网 络 模型 VGG-16 VGG-16 VGG-16 VGG-16 VGG-16 
数据 类 型 fixed16 fixed16 fixed16 fixed8-16 fixed16 
时 钟 MHz) 150 200 150 120 125 
DSP 利用 率 〈% ) 78.7 100 100 37 88.47 
fert (Watt) 26 - z : 42.241 
延迟 /图 (ms) 65.13 65.13 87.87 262.9 59.9 (41.77) 


本 文 设计 生成 的 加 速 嚣 系统， 在 每 张 图 像 处 理 延迟 和 能 源 
效率 方面 与 其 他 已 有 工作 相当 甚至 更 有 优势 , 相 较 于 已 有 工作 ， 
最 大 达到 6.29 倍 的 加 速 比 。 与 在 较 小 平台 上 设计 的 加 速 器 相 比 
P71， 本 文 设计 生成 的 加 速 器 系统 充分 利用 片上 资源 实现 了 更 好 
的 性 能 。 其 中 与 大 平台 生成 的 加 速 器 相 比 P31， 本 文 设计 生成 
的 系统 具有 相当 或 更 佳 的 性 能 ， 即 使 仅 达 到 相当 的 性 能 ， 但 具 
更 低 的 时 钟 频率 。 


= 


i 


十 
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本 文 根 据 卷 积 神经 网 络 计算 模式 高 度 重复 的 流水 线 和 并 行 
性 的 特点 ， 提 出 一 种 面向 云端 FPGA 的 卷 积 神经 网 络 加 速 器 的 
设计 及 其 调度 机 制 。 实 验 结果 表明 ， 该 加 速 器 可 在 有 效 提高 运 
算 速 度 的 同时 减 小 功 耗 。 对 Cifar、AlexNet、VGG-16 等 网 络 模 
型 采用 本 文 设计 系统 实现 的 评估 结果 表现 出 与 已 有 工作 相当 或 
更 佳 的 性 能 ， 并 且 与 CPU 和 GPU 相 比 ， 在 云端 FPGA 上 的 功 
耗 及 性 能 均 表 现 出 较 大 优势 。 

未 来 工作 中 ， 还 将 探索 多 种 加 速 器 之 间 拆 分 推理 的 设计 可 
能 性 。 本 文 已 有 的 工作 采用 模块 化 设计 ， 系 统 可 拓展 性 较 高 ， 
各 种 新 型 计算 类 型 可 轻松 集成 到 设计 中 。 未 来 将 进一步 扩展 笔 
者 的 设计 以 支持 新 功能 ， 并 为 CNN 的 FPGA 映射 提供 更 多 的 
自 适应 解决 方案 。 
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